- Makers van AI-modellen lopen vaak aan tegen een gebrek aan ‘verse data’.
- Soms worden er daarom data gecreëerd door AI-software om AI-modellen te trainen.
- Volgens experts kan dat leiden tot verloedering, maar er zijn uitzonderingen. Bijvoorbeeld in de zorg.
- Lees ook: Een door AI gegenereerde rat met een gigantische penis belicht het groeiende probleem van neponderzoek in de wetenschap
Als je het nieuws rond artificial intelligence (AI) een beetje volgt, dan heb je mogelijk meegekregen dat de grote makers van AI-modellen tegen een probleem aanlopen: de data om de AI-modellen op te trainen raken op.
Na het afstruinen van zo’n beetje het hele internet om AI-chatbots op het huidige niveau te krijgen, lijkt het lastig om meer data te vinden om de werking verder te verbeteren. Een oplossing wordt gezocht in het produceren van data door AI-software, waarmee AI-modellen getraind kunnen worden.
Dit type data wordt ‘synthetische data’ genoemd. Sommige experts zien dit echter als een doodlopende weg. Wanneer AI-modellen getraind worden op hetgeen ze zelf produceren, gaat de kwaliteit ervan steeds verder achteruit.
Een AI-model kan bijvoorbeeld geen echt nieuwe dingen maken, maar gebruikt combinaties van dingen die eerder zijn gemaakt. Deze beperking zorgt ervoor dat een AI-model met synthetische data geen werkelijk nieuwe informatie krijgt toegediend, maar in essentie een variatie van de trainingsdata waarmee het eerder al is gevoed.
Toch zijn niet alle AI-modellen en synthetische data hetzelfde. Er zijn namelijk toepassingen waarin de door kunstmatige intelligentie-software gegenereerde trainingsdata wel heel waardevol kan zijn. Dan hebben we het niet over synthetische data die we in de AI-chatbots, -beeldgeneratoren en stemgeneratoren zien, maar over kunstmatige data die gebruikt wordt bij het bouwen van AI-applicaties in bijvoorbeeld de gezondheidszorg.
Hier komen heel andere uitdagingen bij kijken. De zorg wordt vaak beperkt bij het ontwikkelen van AI-modellen doordat de data in veel gevallen privacygevoelige informatie bevatten. Die mag niet zomaar worden gebruikt om AI-modellen te trainen.
Voor de zorg kunnen sythetische data uitkomst bieden bij het trainen van AI-modellen
“Wij werken met tabular data”, zegt CEO Wim Kees Janssen van Syntho, een startup die met AI synthetische data produceert voor de training van AI-modellen. “Dat is data in een tabel, die we omzetten in andere data die wel de karakteristieken heeft van de echte data, maar niet meer de echte data is.”
Als voorbeeld hiervan noemt Janssen een patiëntenbestand van een bepaald ziekenhuis. Dat bevat enorm veel waardevolle informatie waarop AI-modellen getraind kunnen worden om tot waardevolle conclusies en wellicht zelfs nieuwe behandelmethodes voor bestaande aandoeningen te komen.
Het probleem is alleen dat die data niet zomaar gebruikt kunnen worden en dat datatoegang vaak lang duurt. Syntho gebruikt die data en zet dat om in data met dezelfde statistische kenmerken, maar die op geen enkele manier te herleiden is naar de personen die in de originele dataset staan.
Dat klinkt als simpelweg namen en adressen veranderen, maar dat is het niet. “Je kunt wel anonimiseren op basis van naam en adres, maar er zijn meer variabelen waarmee je toch snel op de betreffende persoon kunt uitkomen”, legt Adviseur Analytics & AI Edwin van Unen van data en AI-bedrijf SAS uit.
“Neem de variabelen die interessant zijn voor AI-modellen, je leeftijd en lengte bijvoorbeeld. Die synthetiseren we op zo’n manier dat ze niet meer in dezelfde combinatie voorkomen, maar de hele dataset wel dezelfde statistische kenmerken behoudt, waardoor het voor dezelfde doeleinden als de originele data perfect bruikbaar blijft.”
Als je je dan afvraagt hoe Syntho toegang krijgt tot die privacygevoelige data waar niemand buiten de ziekenhuizen mee mag werken, dan is dat niet heel vreemd. Daar heeft Janssen natuurlijk ook over nagedacht. “Syntho draait altijd lokaal op de plek waar de data staat. We geven medewerkers toegang tot onze software, waarmee ze zelf synthetische data kunnen genereren. We hebben vanuit Syntho dus geen zicht of toegang tot de originele data."
Dat maakt het volgens Janssen mogelijk voor klanten om zelf datasets te genereren."En die kunnen natuurlijk eenvoudiger buiten de ziekenhuizen gebruikt worden, want die bevatten geen privacygevoelige data meer. Het is synthetische data met synthetische patiënten."
Kracht van AI-model toetsen
Het is niet moeilijk om in te bedenken wat dit voor voordelen met zich meebrengt. Je kunt hele AI-modellen ontwikkelen met data waar je eigenlijk geen toegang tot hebt. Dit maakt het mogelijk om een hele nieuwe wereld van mogelijkheden en verbeterpunten te identificeren.
Maar daarbij rijst ook de vraag: hoe zeker kun je zijn van de uitkomsten van die AI-modellen? Ze genereren immers hun antwoorden op basis van gesynthetiseerde-data en een AI-model is enkel zo goed als de data waarop hij getraind is.
“Een model gaat patronen ontdekken op basis van de data die jij hebt ingevoerd. Is die data niet goed, dan krijg je slechte uitkomsten. Maar het mooie is, dit kan je natuurlijk altijd testen op echte data”, zegt Van Unen. “Het is altijd het doel om de modellen getraind op synthetische data te valideren op de echte data. Dan pas kan je echt zien of een model goed of slecht presteert en of er nog werk aan de winkel is.”
“Dus je moet ook bij het trainen van je voorspellende modellen op synthetische data altijd een stukje oorspronkelijke data apart houden. Deze oorspronkelijke ‘hold-out data’ gebruik je om het model op te testen, voordat je dit in het echt gaat toepassen”, voegt Janssen toe.
Uiteindelijk zit ook hier de grote waarde van synthetische data: het doel ervan is helpen met het ontwikkelen van een nieuw AI-model. Daarbij is de unieke waarde dat je de gesynthetiseerde data tot op zekere hoogte kunt gebruiken als zijnde de echte, omdat het dezelfde karakteristieken heeft als de originele dataset.
Aanpakken van vooroordelen in een AI-model
Deze aanpak heeft als extra voordeel dat mogelijke vooroordelen bij het trainen met synthetische data opgespoord en verminderd kunnen worden. En omdat je hier in essentie met synthetische data werkt, kun je het ook naar wens bijsturen om de focus van het AI-model aan te passen, voordat je dit loslaat op de daadwerkelijke dataset.
“Het begint en eindigt bij de oorspronkelijke data. Betrouwbare data is belangrijk. Zonder betrouwbare data heb je geen betrouwbare uitkomst”, bevestigt Van Unen.